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摘 要 : 随 着 移动 互联 网 的 普及 ， 网 络 信息 指数 增长 ， 如 何 有 效 地 提取 和 利用 这 些 信息 面临 巨大 挑战 。 首 先 介 绍 了 
主题 爬虫 的 工作 原理 、 分 类 ; 然后 回顾 了 近年 来 国内 外 关于 主题 爬虫 的 研究 状况 ， 分 析 了 各 种 主题 相似 度 的 方法 以 
及 搜索 策略 ， 得 出 相 比 于 普通 的 捕 虫 系统 基于 网 页 内 容 和 基于 链接 分 析 的 爬虫 系统 ， 查 准 率 、 查 全 率 都 大 幅度 的 提 
升 ; 最 后 分 析 比 较 了 主题 网 络 爬 虫 两 种 动态 搜索 策略 及 未 来 研究 方向 。 
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Abstract: : With the popularity of the mobile Internet and the growth of the network information index , how to effectively 
extract and utilize this information faces enormous challenges. Firstly, it introduced the working principle and classification 
of the topic crawler. Then it reviewed the research status of the topic crawler at home and abroad in recent years, analyzed 
the methods of similarity of various topics and the search strategy, and drawed the Web content based on the common 
crawler system. And the crawler system based on link analysis, it greatly improved the precision and recall rate. Finally, it 
analyzed and compared the two dynamic search strategies and future research directions of the topic Web crawler. 
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0 引言 个 或 某 几 个 初始 爬 取 网 页 决定 。 以 初始 URL i 即 种 子 

人 RL， 当 把 虫 访问 整个 网 页 时 ， 它 会 自动 识别 网 页 中 所 有 

互联 网 是 一 个 庞大 的 数据 集合 ， 网 络 信息 资源 产生 的 速 RL， 并 将 其 添加 到 待 候 取 URL， 按照 一 定 的 搜索 策 各 访问 

度 呈 指数 增加 ， 如 何 有 效 地 根据 用 户 查 询 将 数据 分 为 相关 和 待 伶 取 URL， 采 集 对 应 URL 的 网 页 后 将 网 页 存储 到 数据 库 

不 相关 数据 ， 并 利用 这 些 信 息 是 科研 人 员 现 如 今 面临 的 巨大 中， 根据 新 的 URL 疏 取 网 页 ， 同 时 从 新 网 页 中 获取 URL。 

的 挑战 。 日 常人 们 使 用 的 检索 工具 有 Firefox、Google 等 , 但 ”重复 上 述 的 爬 取 过 程 。 当 疏 虫 符合 整个 系统 设置 的 停止 条 件 ， 
网 


只 提供 粗略 检索 结果 的 传统 搜索 引擎 ， 无 法 满足 现在 人 类 搜 。。 则 网 络 疏 虫 停止 网 页 抓 取 。 
索 的 需求 ， 提 供 精准 的 检索 信息 。 为 了 弥补 通用 搜索 引擎 的 
缺陷 ,能 够 定向 获取 信息 的 检索 工具 一 一 垂直 搜索 引擎 出 现 。 二 
主题 息 虫 作为 垂直 搜索 引擎 的 核心 部 分 , 如 何 使 候 虫 更 精准 、 页面 基 得 件 ， 则 停止 
更 快速 的 抓 取信 息 ， 成 为 疏 忠 领域 中 的 一 个 重要 研究 方向 ， i 
引起 了 国内 外 众多 研究 人 员 的 广泛 关注 。 J 
本 文 介绍 了 的 虫 工作 原理 、 分 类 、 系 统 结构 、 抱 虫 的 关 。。。 | 六 i 
键 技术 ， 详 细 分 析 了 基于 网 页 内 容 的 主题 息 虫 和 基于 链接 结 过 
构 分 析 的 主题 让 虫 。 实 验 结果 表明 与 普通 的 假 虫 系统 相 比 ， 柯 
主题 妥 虫 的 查 准 率 、 查 全 率 都 有 大 幅度 的 提升 。 | me 


1 网络 礁 虫 的 工作 原理 


图 1 网 络 爬 虫 的 实现 原理 及 过 程 


网 络 爬 虫 , 也 称 蜘蛛 由。 可 以 自动 化 浏览 网 络 中 的 信息 。 Fig. 1 The realization principle and process of web crawler 
搜索 引擎 离 不 开 网 络 爬 虫 ， 网 络 爬 虫 的 主要 作用 是 在 海量 的 
经 人 
互联 网 信息 中 进行 中 取 ， 抓 取 有 效 信息 并 存储 。 2 。 网 络 怜 虫 的 分 关 
图 1 为 网 络 疏 虫 的 实现 原理 及 过 程 示 意图 。 其 中 ， 初 始 网 络 爬 虫 按 照 实现 的 技术 和 系统 可 以 分 为 通用 网 络 怜 虫 
的 URL 地 址 可 以 由 用 户 人 为 地 指定 ,也 可 以 由 用 户 指 定 的 某 (general purpose Web crawler) 、 主 题 网 络 疏 虫 (topical 
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crawler) 、 增 量 式 网 络 息 虫 (incremental Web crawler) 、 深 工作 和 效率 ， 防 止 抓 取 同一 网 页 ， 在 网 页 获取 模块 中 设 定 超 
层 网 络 息 虫 (deep web crawler) 。 时 机 制 ， 超 过 一 定 抓 取 时 间 的 网 页 将 被 舍弃 。 

通用 网 络 息 虫 又 叫做 全 网 息 虫 ， 其 仆 取 目标 在 整个 互联 c) 网 页 解析 模块 。 网 页 解析 模块 是 衔接 其 他 模块 的 中 村 
网 中 。 由 种 子 URL 开始 , 扑 虫 系统 开始 访问 网 页 ， 采集 网 页 是 整个 私 虫 系统 主要 的 部 分 。 该 模块 提取 采集 的 HTML 形式 


所 有 超 链 接 。 为 了 防止 获取 重复 的 URL， 将 爬 取 到 的 网 页 信 网 页 中 的 重要 信息 链接 、 文 本 等 ,同时 利用 获取 的 内 容 信 息 ， 
息 存 储 在 原始 数据 库 中 ， 然 后 对 网 页 进行 解析 ， 并 根据 网 页 ”为 后 期 网 页 的 主题 相关 度 计算 做 铺垫 。 
搜索 策略 爬 取 新 的 URL。 重复 上 述 过 程 , 直到 怜 取 到 的 URL d) 网 页 过 滤 模 块 。 该 模块 用 来 篇 选 与 主题 有 关 的 URL， 
符合 停止 条 件 ， 则 完成 整个 息 忠 过程。 这 种 面向 全 网 的 检索 ”通过 筛选 抓 取 与 主题 相关 的 页 面 ， 确 保 主题 怜 虫 系统 的 准确 


一 


工具 ， 无 法 准确 提供 用 户 特定 的 需求 外 。 因 此 ， 提 出 了 面向 ” 率 。 

特定 主题 需求 的 网 络 候 虫 : 主题 网 络 候 虫 ， 它 比 通用 网 络 扑 e) 搜索 调度 模块 。 为 确保 候 虫 对 URL 更 有 效 、 合 理 地 

虫 多 出 几 步 ， 即 目标 的 定义 、 无 关 链 接 的 过 滤 、 下 一 步 怜 取 ”访问 ， 网 络 候 虫 会 根据 网 页 制定 合理 的 搜索 规则 。 常 见 的 网 

URL 地 址 的 选取 。 页 搜 取 策 略 分 为 深度 优先 、 广 度 优 先 和 最 佳 优 先 三 种 。 由 于 
主题 网 络 朴 虫 可 以 按照 对 应 的 主题 有 目的 地 进行 爬 取 ， 深度 优先 存在 一 定 问 题 ， 最 常用 的 是 广度 优先 和 最 佳 优 先 


聚焦 网 络 爬 虫 将 目标 定位 在 互联 网 中 与 主题 相关 的 页 面 中 ， 种 搜索 方法 。 
初始 URL 的 获取 是 通过 对 抓 取 目标 的 定义 以 及 相关 的 描述 。 f) 网 页 存储 模块 。 
为 了 帮助 卜 虫 更 有 效 的 发 现 与 主题 相关 的 URL, 需要 对 主题 ” 来 的 数据 通过 文件 或 数 
准确 的 描述 ， 然 后 解析 网 页 内 URL， 判断 网 页 与 主题 的 相关 擎 完成 检索 功能 做 好 准备 。 
度 ， 根 据 网 页 搜索 策略 预测 链接 的 主题 相关 度 并 确定 URL g) 预 处 理 模块 。 该 模块 是 将 网 页 解析 模块 获取 的 网 页 内 
优先 级 。 在 聚焦 网 络 礁 虫 中 ， 不 同 的 爬 取 顺 序 会 导致 伶 虫 的 ，” 容 等 信息 进行 处 理 ， 通 过 对 文本 的 分 词 、 去 停 用 词 、 词 干 化 
执行 效率 不 同 ， 因 此 需要 依据 搜索 策略 来 确定 下 一 步 需要 怜 等 预 处 理 ， 将 文本 内 容 转换 为 计算 机 能 够 识别 的 数学 模型 ， 
取 的 URL 地 址 并 存储 。 整 个 主题 念 虫 不 断 重复 上 述 过 程 , 当 ”为 后 期 主题 网 络 仆 虫 中 网 页 分 析 模 块 进行 主题 相似 度 计 算 做 
符合 仆 虫 系统 中 规定 的 停止 条 件 ， 则 停止 假 取 过 程 。 准备 。 
4 h) 网 页 分 析 模 块 外 。 该 模块 是 主题 息 忠 的 核心 部 
3 ”网 络 仆 虫 的 系统 结构 页 分 析 模 块 分 为 两 部 分 ， 第 一 部 分 是 主题 相关 度 判断 ， 用 于 
网 络 爬 虫 系统 分 为 网 页 获取 、 网 页 过 滤 以 网 页 存储 三 大 ”判断 网 页 的 主题 相关 性 ;第 二 部 分 为 主题 相关 度 预 测 ， 预 测 
模块 。 主 题 朴 虫 为 了 定向 的 抓 取 有 效 信息 ， 对 三 大 模块 进行 ”网 页 URL 与 主题 相关 度 , 通过 搜索 策略 , 优先 访问 与 主题 相 
适当 修改 并 增加 了 网 页 分 析 模 块 用 于 计算 网 页 相似 度 ， 如 图 关 的 URL。 
2 所 示 。 主 题 网 络 爬 虫 的 关键 是 确定 主题 并 对 主题 进行 详细 
描述 ， 在 系统 抓 取 页 面 之 前 给 定 网 页 文本 与 主题 的 相关 性 ， 4 网络 礁 虫 关键 的 技术 
使 
j 
通 
能 
区 
与 


习 


页 存储 模块 将 网 页 解析 模块 解析 出 
库 的 形式 存储 起 来 ， 从 而 为 搜索 引 


弄 


次 耽 


岩 


区 虫 系 统 尽 可 能 多 地 筛选 出 和 主题 相关 页 面 ， 减 少 无 关 页 ”4.1 网 页 获取 
四 ， 从 而 使 主题 候 虫 返回 的 结果 具有 较 高 的 准确 率 。 相 比较 网 络 爬 虫 的 基本 原理 是 模拟 浏览 器 进行 HTTP 请 求 ， 疏 
通用 怜 虫 ， 主 题 怜 虫 优势 有 如 下 几 点 吊 : a) 相 比 通 用 疏 虫 只 虫 客户 端 通过 HTTP 请 求 向 Web 服务 器 发 送 请 求 , 获取 服务 
提供 粗略 的 信息 ， 主 题 怜 虫 主题 明确 且 系统 能 够 精准 地 获 “器 端的 响应 后 下 载 网 页 ， 完 成 聆 虫 系统 怜 取 工 作 。 

取 有 效 信息 ; b) 主 题 怜 虫 在 存储 网 页 URL 需要 判断 该 URL ”4.2 网 页 解析 


主题 的 相关 性 ， 尽 可 能 筛选 出 与 主题 相关 的 页 面 。 网 页 解析 主要 是 一 个 网 页 去 噪 的 过 程 ， 互 联网 中 以 
1 HTML 为 架构 承载 网 页 的 各 种 信息 。 网 页 去 噪 主要 是 网 页 内 

本 | 机 处 理 模块 | 容 正文 抽取 。 主 题 息 虫 提取 网 页 中 的 内 容 时 ， 需 要 分 析 页 面 

| | 网 天 由 的 HTML 结构 ， 从 中 提取 页 面 的 有 效 信息 。 常 见 的 方法 有 通 

I | [1 由 区 过 站 代数 人 | | 过 BeautifulSoup 对 HTML 结构 解析 、 利 用 正则 表达 式 抽取 

ee |- 文本 数据 。 

-一 BeautifulSoup 主要 是 Xpath 和 CssSelector 方法 , 针对 网 

oo 站 的 HTML 标签 可 以 提取 出 所 需要 的 有 效 信息 ,可 以 选择 tag、 

| id、class 等 多 种 方式 进行 定位 选择 。Chrome、firefox 浏览 器 

已 经 对 页 面 的 各 个 节点 做 好 了 标记 ， 可 以 直接 复制 Xpath 或 

一 一 一 一 一 者 CssSelector 使 用 ， 相 比较 正则 表达 式 ，BeautifulSoup 方便 
图 2 网 络 爬 虫 的 系统 结构 初学 者 使 用 。 但 结构 复杂 的 页 面 中 ，BeautifulSoup 并 不 是 

Fig.2 System structure of Web crawler 种 高 效 的 方法 ， 在 使 用 这 种 方式 提取 有 效 信息 ， 就 需要 要 求 

把 虫 系 统 主要 模块 介绍 如 下 : 页 面 的 结构 固定 ， 相 同 字段 的 tag、id、class 都 必须 相同 ， 所 
a) URL 队列 。URL 队列 主要 用 来 存放 各 种 超 链接 ， 如 ”以 在 复杂 的 页 面 结构 中 ， 就 需要 采取 正则 表达 式 来 提取 有 


nD 


系统 未 爬 取 的 网 页 链接 , 即 待 怜 取 URL 队列 ; 随 着 爬虫 系统 信息， 正则 表达 式 比较 复杂 ， 需 要 花 时 间 去 研究 ;但 是 对 了 
运行 更 多 的 链接 被 仆 取 ， 为 避免 候 虫 系统 仆 取 相同 页 面 , 已。 提取 页 面 字符 串 结 构 的 信息 ， 处 理 速 度 很 快 ， 高 效 便捷 。 
息 取 的 链接 存放 已 息 取 队列 ， 未 完成 下 载 的 链接 被 存放 在 错 。 4.3 数据 存储 
误 队 列 。 爬虫 抓 取 后 的 数据 ， 一 般 选 择 两 种 存储 方式 : 本 地 保存 
b) 网 页 获取 模块 申 。 网 页 获取 中 需要 模拟 客户 端 发 送 。 csv、excel 格式 或 者 直接 存储 到 数据 库 。 对 于 量 大 的 数据 可 
HTTP 请 求 ， 获 取 服 务 器 端的 响应 后 下 载 网 页 ， 完 成 息 虫 系 ”以 直接 保存 本 地 ， 对 于 数据 量 大 的 候 虫 一 般 选 择 保存 在 数据 
统 仆 取 工作 。 同 时 ， 扑 虫 系统 为 了 确保 整个 网 络 息 虫 的 正常 。” 库 中 ， 方便 储 存 同时 也 方便 后 期 进一步 对 数据 的 分 析 、 处 理 
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车 。 用 python 写 息 虫 的 过 程 ， 直 接 可 以 采用 python 中 自 带 ”网 页 的 价值 与 网 页 被 引用 成 正比 ，b) 网 页 之 间 存 在 被 引用 关 
的 csv 包 、 新 建 csv 或 者 excel 格式 的 表格 。 设 置 边 候 边 存储 。” 系 ， 则 网 页 结构 、 内 容 信息 相似 度 越 大 ，c) 结 构 信息 合理 的 
csv 或 excel 中 写 入 数据 库 中 分 为 两 种 形式 ,一 种 是 关系 型 数 。 ”网 页 易 被 引用 。 基 于 链接 分 析 的 搜索 策略 利用 网 页 中 的 链接 
据 库 MySQL、SQLServer; 一 种 是 非 关系 型 的 数据 库 mongodb、 来 进行 分 析 并 预测 网 页 主题 ， 最 后 评估 网 页 URL 的 优先 级 。 
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ot 


ssdb、hbase 等 。 目前 经 典 的 搜索 策略 有 Page Rank、HITS 和 Hill Top。 
写 入 数据 库 有 两 种 思路 ， 一 种 是 等 所 有 的 数据 都 候 完 ， 于 a 

集中 一 次 向 量化 清洗 ， 一 次 性 入 库 ; 另 一 种 是 聆 一 次 数据 清 5 主题 仆 虫 的 研究 方向 

洗 一 次 就 入 库 。 对 于 大 规模 聆 虫 来 说 ， 稳 定性 是 要 考虑 的 重 近 几 年 来 ， 研 究 者 们 为 了 提升 主题 伶 虫 获取 页 面 时 的 准 

要 因素 ， 在 长 久 的 爬虫 过 程 种， 不 可 避免 地 出 现 一 些 网 络 错 ” 确 度 和 高 效 性 ， 通 过 在 主题 相似 度 和 搜索 策略 上 制定 仆 行 策 

误 ， 在 这 种 情况 下 第 一 类 疏 出 的 数据 会 变 成 无 用 数据 ;而 第 ” 略 和 算法 。 目 前 国内 外 对 主题 怜 虫 的 研究 主要 分 为 以 下 几 个 

二 类 则 避免 了 类 似 问题 ， 并 且 单 次 清洗 和 入 库 较 快 ， 对 整体 ”方向 。 

入 库 时 间 不 会 产生 影响 ， 故 选择 第 二 类 方法 作为 写 入 数据 库 ”5.1 基于 网 页 内 容 的 主题 礁 虫 

的 方式 。 网 页 中 不 同 的 内 容 信息 反映 网 页 不 同 的 含义 ， 标 题 、 关 

4.4 主题 判别 键 词 、 文 本 内 容 等 都 是 网 页 中 最 具有 代表 性 的 信息 。 王 锦 阳 
主题 判别 馈 的 主要 作用 是 判断 疏 取 网 页 的 主题 相关 性 ， 中 利用 这 一 特点 提出 利用 标题 构造 精简 内 容 子 树 来 判断 网 页 


代 
第 一 步 就 是 思考 如 何 定 义 主题 。 主 题 判 别 的 问题 大 多 被 当做 。 主题 ， 利 用 语义 相似 性 改变 向 量 空 间 模型 对 主题 的 相关 性 进 
一 个 文本 分 类 的 问题 来 探索 。 目 前 ， 研 究 人 员 结 合 网 页 中 链 ” 行 判定 ， 解 决 了 传统 向 量 空间 模型 缺乏 在 文本 语义 判定 中 的 
妆 的 销 文 本 、 网 页 标签 等 来 计算 网 页 中 URL 与 主题 的 相关 度 。 问题 ， 提 高 了 判断 网 页 主题 相关 的 识别 率 ， 主 题 怜 虫 采 集 信 
姑 此 主题 相关 性 的 计算 也 是 不 同 主题 仆 虫 的 区 别 之 处 。 常 用 。” 息 的 准确 率 大 大 提高 。 


的 主题 相似 度 判 别 算法 有 向 量 空间 模型 、 语 义 相 似 度 中 。 周 米 雪 由 在 主题 仆 虫 的 启发 下 设计 面向 医疗 领域 的 垂直 
1) 向 量 空间 模型 搜索 引擎 , 在 抓 取 网 页 后 , 分 别 从 网 页 中 的 超 链接 、 元 信息 、 
可 量 空间 模型 概念 简单 ， 将 文本 处 理 转 换 为 在 向 量 空间 ， 词 库 进 行 主题 相关 度 判 别 ， 有 效 合理 地 筛选 出 与 主题 相关 的 
上 的 向 量 运算 , 将 每 一 篇 文档 表示 为 向 量 空间 上 的 某 一 维度 ， 页面， 并 针对 传统 的 PageRank 算法 的 不 足 ， 合 理 地 引进 时 
通过 计算 向 量 在 空间 的 相似 度 来 衡量 文档 之 间 的 相似 度 。 间 反 馈 因 子 、 权 威 性 因子 、 主 题 相关 度 因子 。 实 验 结果 表明 ， 
2) 语义 相似 度 医疗 垂直 搜索 引擎 的 查 准 率 明显 提高 。 
汉语 不 同 于 英语 ， 对 某 个 事物 的 描述 有 多 种 不 同 的 描述 李 宏志 等 人 口 构建 了 KNN 分 类 器 来 判断 网 页 之 间 的 主 
方式 ， 尤 其 是 近年 来 研究 人 员 困 惑 的 问题 自然 语言 处 理 中 语 。” 题 相 关 性 , 采用 了 天 Analyzer 实现 网 页 内 容 的 中 文 分 词 , 通过 


义理 解 ， 识 别 一 段 文 本 的 含义 ， 传 统 的 分 词 、 统 计 词 频 不 能 ” TF-IDF 算法 实现 网 页 内 容 的 特征 提取 。 实验 结 果 表 明 ， 基 于 


准确 理解 文本 信息 所 表达 的 意思 ， 降 低 文本 含义 识别 的 准确 。 KNN 分 类 的 网 络 疏 虫 在 区 分 网 页 主题 时 准确 率 会 随 着 网 页 

度 。 文 本 中 能 够 观察 到 的 量 只 有 词 频 和 文档 频率 两 个 ， 在 文 中 文档 数量 的 增加 而 升 高 ， 同 时 分 类 的 效果 、 稳 定性 也 优 于 

本 语义 的 分 析 方法 ， 是 一 种 对 以 这 两 个 量 为 主要 思想 的 计算 专 统 的 PageRank 和 Bayes 算法 效果 。 

基础 ， 使 得 计算 机 能 够 “ 懂 ” 人 类 的 语言 。 张 莉 婧 等 人 外 将 主题 疏 虫 应 用 到 图 书 主题 上 ， 设 计 了 一 

4.5 网 页 搜索 策略 种 新 的 面向 图 书 的 主题 怜 虫 算法 ODP2EVSM 到 出 一 种 面向 
主题 候 虫 是 定向 仆 虫 ， 具 有 特定 的 主题 其 目标 就 是 快捷 图 书 主题 的 朴 虫 算法 。 该 算法 主要 由 两 部 分 组 成 :为 了 准确 、 


准确 地 完成 与 主题 相关 页 面 的 搜索 。 网 络 搜索 策略 中 主要 目 ”详细 的 描述 主题 作者 首先 采用 基于 开放 式 分 类 目录 系统 
的 就 是 使 候 虫 有 次 序 、 有 目的 地 搜索 ， 运 用 合理 的 搜索 策略 (ODP) 进行 关键 词 动态 扩充 的 动态 关键 词 扩充 的 主题 描述 
F 展 


可 以 保证 主题 朴 虫 选择 更 合理 的 爬行 路 径 ， 高 效 地 完成 网 页 。 方法 ; 然后 判断 网 页 与 主题 是 否 相 关 采 用 基于 词 项 语义 扩 
拒 取 任务 。 度 的 向 量 空间 模型 (VSM) 主题 相关 度 算 法 。 


网 络 搜索 策略 依据 搜索 方式 的 不 同 分 为 静态 搜索 策略 和 李 辉 等 人 中 利用 向 量 空间 模型 对 主题 仆 虫 算法 中 的 内 容 
动态 搜索 策略 。 静 态 搜 索 策略 和 动态 搜索 策略 主要 区 别 是 有 ”相似 度 进行 计算 ， 疏 虫 在 采集 页 面 时 有 效 地 筛选 出 和 主题 相 
无 事先 确定 搜索 规则 。 静 态 搜 索 策略 依照 确定 的 规则 进行 搜 。” 关 度 高 的 网 页 ， 同 时 提高 了 扑 行 效率 和 抓 取 的 准确 度 。 为 验 
索 ， 搜 索 策略 的 规则 不 会 因为 网 页 结构 、 文 本 信息 的 改变 而 。” 证 该 算法 仆 行 的 准确 率 ， 将 该 算法 应 用 在 养殖 投入 品质 量 信 
改变 ;动态 搜索 策略 以 高 效 \ 快 速 完成 息 取 任务 为 第 一 宗 骨 ， 息 监 管 系统 ,测试 表明 该 系统 运行 稳定 、 采 集 信 息 准确 度 高 。 


实时 调整 搜索 路 线 ， 互 联网 是 由 网 页 和 超 链接 构成 的 一 个 整 姬 祥 印 利用 农产品 价格 样本 得 到 一 个 SVM 分 类 器 ,以 
本 ， 根 据 分 析 对 象 不 同 ， 动 态 搜索 策略 可 分 为 基于 文本 内 容 ”SVM 分 类 器 的 支持 向 量 为 训练 样本 构建 一 个 KNN 分 类 器 ， 
的 搜索 和 基于 链接 关系 的 搜索 。 有 效 地 对 抓 取 到 的 页 面 进行 分 类 。 为 了 精准 高 效 地 收集 所 有 

网 页 中 不 同 的 内 容 信 息 反 映 网 页 不 同 的 含义 ， 标 题 、 关 ”农产品 价格 信息 ,在 不 同情 况 下 分 别 采用 SVM 分 类 器 和 支 


但 


键 词 、 文 本 内 容 等 都 是 网 页 中 最 具有 代表 性 的 信息 ， 主 题 持 向 量 KNN 分 类 器 来 保证 抓 取 网 页 准确 性 。 
虫 获 取 网 页 后 依据 网 页 全 局 文本 信息 或 网 页 局 部 信息 计算 3 网 页 文本 信息 中 存在 一 词 多 义 的 问题 ， 为 了 解决 这 一 问 
题 相 关 度 。 动 态 搜索 策略 需要 快速 计算 网 页 链接 相关 度 ， 题 ， 备 竹 铝 提出 了 使 用 语义 模型 表示 并 结合 点 对 互信 息 ， 根 
此 基于 局 部 文字 的 搜索 策略 是 主题 爬虫 较 常 用 的 一 种 搜索 策 。 据 上 下 文 判断 该 词 在 文中 的 含义 ， 并 联合 网 页 链接 判断 是 否 
名， 该 计算 相关 度 该 方法 计算 量 小 ， 能 够 在 较 短 时 间 得 到 ， 与 主题 词 相 关 的 判定 ， 筛 选 出 与 主题 词 相 关 的 网 页 链接 ， 并 
URL 的 主题 相关 度 ; 基于 网 页 全 局 文字 的 搜索 策略 利用 网 页 。 得 到 客观 的 实验 结果 ; 

所 有 文本 信息 耗 时 过 长 。 基 于 文本 内 容 的 经 典 的 搜索 策略 有 Wangb9 以 电子 产品 品牌 等 专业 词汇 , 将 主题 词汇 扩展 到 
Fish-Search、Shark-Search 。 目 前 研究 人 员 提 出 的 基于 链接 分 。 我 的 词典 中 ， 使 其 称 为 一 个 典型 的 专业 词汇 ， 在 很 大 程度 上 
析 的 搜索 策略 都 是 建立 以 三 条 标准 为 基础 : a) 网 页 的 引用 ， 提高 了 查询 的 准确 性 ， 通 过 改进 开源 爬虫 框架 Heritrix 建立 
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录用 定稿 潘 晓 英 ， 等 : 主题 根 虫 技术 研究 综述 第 37 卷 第 5 期 
了 电子 产品 搜索 引擎 。 研 究 表明 ， 该 下 载 方法 可 以 满足 电子 Liu 等 人 0 通过 采用 VIPS 算法 分 析 网 页 的 深度 , 在 相关 
产品 搜索 平台 需求 。 链接 的 预测 中 ， 采 用 多 粒度 次 鱼 搜索 算法 ， 同 时 结合 基于 查 

Song 等 人 0 在 介绍 关键 词 和 支持 向 量 机 模型 的 基础 上 ， 询 的 命中 算法 ， 改 进 了 姿 鱼 搜 索 算 法 扑 行 策略 。 新 算法 不 但 
提出 了 一 种 动态 主题 怜 虫 系统 ， 能 够 有 效 地 获取 目标 信息 。 尔 补 了 Shark 和 HITS 两 种 算法 的 缺点 ， 减 少 了 噪声 环节 同 
该 方法 可 灵活 应 用 于 信息 安全 、 企 业 公 关 和 危机 管理 等 领域 。 时 消除 “主题 漂移 ”现象 。 

Dahiwale 等 人 0 提出 依据 语义 相关 性 来 判断 主题 相关 网 页 中 锚 文本 包含 了 页 面 中 丰富 的 信息 ，Kumar 等 人 08 
性 ， 通 过 在 下 载 页 面 之 前 使 用 Meta 标签 作为 计算 相关 性 的 依据 这 一 特点 建立 页 面 分 析 器 的 组 件 被 用 来 理解 页 面 内容 和 
主要 信息 来 源 , 预测 语义 相似 性 的 基于 语义 的 聚焦 Web 把 虫 页 面 中 锚 文 本 上 下 问 的 主题 ， 页 面 分 析 器 的 输出 用 于 进行 仆 
的 方法 ， 通 过 搜索 分 析 发 现 仆 虫 过 滤 了 大 量 不 相关 的 网 页 链 行 决 策 ， 从 链接 中 提取 信息 ， 并 引导 故 虫 在 相关 领域 的 特定 
交 ， 系 统 采集 的 文档 质量 也 有 所 提高 。 爬行 。 

主题 仆 虫 在 主题 相似 度 判 别 算法 制定 各 种 算法 ， 整 个 过 刘 韶 涛 等 人 09] 通 过 结合 基于 内 容 的 链接 选择 Best-First 
程 涉 及 文本 相似 度 的 判断 。 目 前 ， 基 于 网 页 内 容 的 主题 爬虫 算法 , 引入 能 够 体现 链接 价值 的 HITS(hyperlink induced topic 
计算 文本 相似 度 的 判断 方法 大 致 分 为 两 类 ， 一 类 是 基于 字 词 search) 算法 ， 将 两 种 算法 相 结 合 ， 设 计 出 新 的 链接 选择 策 
统计 模型 ， 如 向 量 空间 模型 (VSM) ; 另 一 类 是 基于 语义 理 略 。 该 算法 将 页 面 内 容 与 链接 结构 融合 起 来 考虑 ， 有 效 地 提 
解 模 型 。 研 究 人 员 希 望 使 用 语义 相关 性 使 网 络 息 虫 可 以 获得 高 了 爬 虫 在 下 载 过 程 中 的 主题 相关 性 和 权威 性 。 

更 精确 的 结果 。 整 个 主题 相似 度 判 别 过 程 中 ， 首 先 确 定 主 题 Pant 等 人 P20 中 提出 爬行 器 在 使 用 链接 上 下 文 的 情况 下 
扑 虫 的 主题 ， 再 根据 网 页 内 容 、 结 构 信 息 计算 网 页 主题 相关 自动 导航 Web 的 超 链接 结构 ,以 预测 相对 于 某 些 起 始 主题 或 
度 和 抓 取 URL 的 相关 度 , 依据 网 页 主题 相关 度 判 断 待 抓 取 链 主题 的 相应 超 链 接 的 优势 。 使 用 由 支持 向 量 机 引导 的 主题 候 

接 和 抓 取 链 接 的 优先 级 。 此 类 扑 虫 通常 能 获得 较 高 的 准确 率 。 虫 ， 研 究 了 链接 上 下 文 的 各 种 定义 对 改行 性 能 的 影响 。 
表 1 基于 网 页 内 容 的 主题 朴 虫 方法 Shen 等 人 P0 在 结合 Web 内 容 分 析 ， 提 出 了 一 种 基于 复 
Table 1 Topic crawling method based on Web content 杂 网 络 中 局 部 社区 的 抓 取 方法 。 整 个 仆 虫 被 分 为 两 个 部 分 ， 
方法 文献 查 准 率 召 回 率 F 值 首先 , 利用 社区 发 现 算法 对 Web 站 点 之 间 的 链接 结构 进行 分 
基于 改进 PageRank 算法 [4] 0.7 \ \ 析 ， 构建 给 定 主题 的 网 站 ; 其 次 ,对 Web 页 面 的 所 有 主题 相 

基于 KNN 分 类 算法 的 主题 网 络 怜 虫 [5] 075 \ \ 关 分 析 和 链接 预测 都 在 这 个 组 内 进行 。 

基于 ODP 主题 描述 和 VSM 主题 相关 度 改进 [6] 0.64 0.24 0.24 Gupta 等 人 [9 通过 锚 文本 确定 网 页 含义 ， 提 出 标签 树 方 

二 于 词 向 量 语义 模型 构建 主题 翁 虫 [9] 0.46 0.69 0.44 ”法 和 解析 方法 提取 链接 上 下 文 的 方法 。 标 记 树 方法 将 有 助 于 
基于 SVM 分 类 器 的 支持 向 量 构建 KNN 分 类 器 [8] 080 \、 \ 找到 锚 文 本 的 概念 ， 并 且 该 概念 将 由 LALR 解析 器 使 用 ， 用 

基于 关键 词 和 SVM 的 动态 主题 候 虫 [11] 092 \、 \ 于 提取 链接 上 下 文 的 算法 。 

基于 URL 和 锚 文 本 语义 特征 改进 [12] 0.69 \ \ Peng 等 人 [3 认为 网 页 中 销 文 本 不 能 有 效 地 表达 网 页 含 

判断 主题 候 虫 抓 取 性 能 主要 指标 有 查 准 率 、 召 回 率 〈 查 义 ， 可 能 会 误导 主题 候 虫 息 行 方向 ， 提 出 将 网 页 划分 为 更 小 
全 率 ) 、F 值 三 条 。 表 1 给 出 了 目前 研究 人 员 提 出 基于 网 页 的 区 域 来 避免 网 页 中 高 度 相关 区 域 被 遮挡 ， 并 且 根 据 划 分 区 
内 容 的 主题 仆 虫 算法 的 部 分 实验 数据 。 实 验 结果 表明 ， 网 页 域 的 相关 性 选择 使 用 链接 上 下 文 信息 ， 以 提高 重点 网 页 的 采 
内 容 详细 反映 了 网 页 的 主题 信息 等 ， 基 于 网 页 内 容 的 主题 疏 ” 集 。 

虫 算法 的 改进 很 大 程度 地 提高 了 息 虫 系统 查 准 率 与 查 全 率 。 Geng 等 人 [2 为 了 提高 主题 息 虫 的 采集 效率 和 准确 度 ， 
5.2 ”基于 链接 分 析 的 主题 怜 虫 基于 传统 主题 朴 虫 技术 上 提出 了 _ HTML 分 析 和 文本 密度 结 
传统 的 基于 网 页 内 容 评价 的 搜索 策略 往往 会 忽略 网 页 间 合 对 网 页 文本 提取 ， 并 考虑 加 入 多 因素 计算 相似 度 方法 ， 即 


链接 的 相关 性 ， 基 
容 ， 造 成 “主题 漂移 ” 
的 Fish-Search 算法 和 基于 链接 分 析 的 PageRank 算法 从 页 面 


内 容 和 页 面 间 
容 和 网 页 链接 
主题 间 的 相关 


胡 薄 瑞 等 


的 相 


来 判断 主题 之 


以 性 , 而 不 同 模 块 中 
于 URL 模式 集 的 主题 


基于 链接 分 析 的 搜索 策略 忽 
的 


各 了 网 页 正文 内 
蜗 象 。 蔡 光波 [结合 基于 内 容 评价 


的 链接 关系 两 个 方面 进行 考虑 ， 将 网 页 文本 内 
结合 使 用 、 取 长 补 短 ， 从 而 计算 出 页 面 内 容 与 
性 . 怜 虫 系统 结果 验证 表明 , 查 准 率 明显 提高 。 
人 1 依据 网 页 中 URL 链接 的 结构 、 语 义 特 征 


新 闻 文 本 和 文本 作为 不 同 的 参考 因素 。 


题 仆 虫 在 网 页 文本 的 

Shark-Search 算法 妊 
时 表现 出 恨 好 的 性 能 ， 但 它 缺 乏 “ 全 局 ” 
此 紧密 相连 区 域 中 页 盏 
从 而 导致 “主题 漂 


一 种 迭代 算法 ， 


大 | 


该 方法 明显 提高 了 主 
确 性 。 
距离 相关 页 面 集 更 近 的 距离 内 搜索 


。PageRank 算法 是 
的 权重 必然 会 增加 ， 


PageRank 算法 合 


URL 链接 特征 差异 较 大 , 提出 了 基 


算法 计算 网 页 得 分 ， 


在 用 


到 虫 ， 通 过 区 分 URL 特征 之 间 的 差异 
间 的 相关 性 ， 并 根据 各 模式 的 重要 度 预测 待 抓 


取 URL 的 优 9 
率 。 


张 金 等 人 


级 ， 保 证 爬虫 的 查 准 率 和 查 全 率 , 提高 息 虫 效 


05] 为 确保 获取 的 URL 都 是 主题 相关 度 高 的 页 


田 ， 提出 了 全 


于 页 面子 链接 分 析 的 链接 排序 算法 ， 通 过 考虑 


子 链接 的 相关 
获得 较 高 相关 
进行 相关 度 高 
史 宝 明 等 
用 计算 待 分 析 
传统 息 虫 算法 


度 对 当前 的 链接 相关 度 进行 加 权 ， 抓 取 过 程 中 
度 链接 ， 然 后 加 权 计 算 所 得 的 得 分 对 链接 队列 
低 的 排序 ， 从 而 提高 了 扑 取 的 准确 性 。 
人 09 提 出 基于 链接 模型 的 相关 性 判别 算法 ， 利 
URL 之 间 的 主题 相关 度 , 先 实现 结果 证 明 相 比 
， 提 出 的 方法 效率 更 高 。 


的 权重 值 定义 页 画 
陷 。 结 果 表 明 该 算法 适 | 


网 页 信息 。 
互联 网 


人 员 试 图 通过 


PageRank 计算 页 本 
i 的 重要 性 ， 同 时 弥补 了 两 个 传统 算法 的 缺 


移 ” 现 象 。Qiu 等 人 P5 将 Shark-Search 与 
， 该 算法 分 为 两 部 分 : 


j Shark-Search 
之 间 URL 链接 


AZ 
不 


于 大 量 页 


看 的 采集 ， 以 获取 有 效 的 


中 数 十 亿 的 网 页 通过 万 维 网 上 的 超 链接 链接 ， 厂 


有 效 的 方式 获取 链接 上 下 文 的 含义 ， 从 而 对 


过 分 析 网 页 链 ] 


赚 上 下 文 的 解析 和 所 
算法 改进 ， 使 


上 


取 ， 或 者 基于 网 页 内 容 对 传统 链接 选 


网 络 爬 虫 采 集 过 程 中 准确 度 提升 。 该 类 算法 
接 判 断 网 页 的 重要 性 、 强 调 了 页 下 


链接 的 权 


生 对 用 户 的 需求 是 有 


庆 罗 和 沪 第 启 污 


题 漂浮 问题 ， 提 高 主题 仆 取 的 准确 性 。 
表 2 给 出 了 目前 研究 人 员 提 上 


以 及 锚 文 本 上 下 文 网 页 内 容 分 忆 


意义 的 ， 同 时 从 网 页 正文 、 链 接 锚 文 


打 和 链接 分 析 结 合 解决 了 主 


上 基于 链接 分 析 的 主题 朴 虫 


201904.00069v1 


国 
国 


chinaXlV 


录用 定稿 潘 晓 英 ， 等 : 


nm 


主题 仆 虫 技术 研究 综述 


一 定局 限 性 ， 例 如 对 关键 词 


的 


ChinaXiv 合 作 期 刊 
第 37 卷 第 5 期 


和 述 不 够 准确 ， 主 题 仆 虫 在 采集 


头 
主题 候 虫 弥补 了 基于 网 页 内 容 主题 仆 虫 只 考虑 了 页 面 内 容 
忽略 了 网 页 子 链接 形成 对 主题 仆 虫 的 影响 的 缺陷 ， 且 基于 
页 与 链接 同时 研究 会 获取 更 精准 的 采集 效果 。 
表 2 基于 链接 分 析 的 主题 候 虫 方法 


Table 2 Topic crawler method based on link analysis 


算法 的 部 分 实验 数据 。 实 验 结果 表明 ， 基 于 网 页 链接 分 析 


的 
网 


方法 文献 查 准 率 召回 率 F 值 

基于 URL 模式 集 的 主题 怜 虫 14] 0.69 0.52 0.61 
基于 页 面子 链接 分 析 的 链接 排序 算法 15] 0.55 \ \ 
VIPS 分 析 网 页 深度 + 多 粒度 鲨鱼 搜索 算法 17] 0.66 \ \ 
分 类 器 引导 的 主题 息 虫 且 链 接 上 下 文 20 \ 061 \ 
基于 Best-First 算法 +HITS 算法 19] 0.61 075 \ 
基于 内 容 分 块 -选择 性 链接 上 下 文 的 聚焦 疏 虫 23 \ 0.80 
HTML 分 析 + 文 本 密度 分 析 + 多 因子 相似 度 24] 0.67 0.48 \ 


6 ”有 把 虫 系统 在 各 领域 的 应 用 


随 着 网 络 信息 的 指数 增长 ， 为 创造 更 精准 的 检索 工 
句 某 一 特定 主题 服务 型 垂直 搜索 引擎 成 为 


了 


究 热 点 ， 因 出 


不 同 领 域 的 主题 仆 虫 接 中 而 来 。 
智慧 农林 的 兴起 张 露 露 ?7 设计 了 面向 病害 忠 主 题 搜 索 
引擎 ， 构 建 领域 主题 词典 对 主题 详细 描述 ， 同 时 考虑 网 站 链 


接 和 网 页 内 容 设 计 满足 该 领域 的 主题 搜索 引擎 ， 李 辉 等 人 四 


采用 主题 念 虫 作为 养殖 投入 品质 量 信息 监管 系统 中 对 互联 
中 海量 信息 获取 的 关键 步骤 ， 有 效 避 免 了 下 载 无 关 页 
高 信息 采集 的 查 准 率 、 查 全 率 ; 为 了 准 


收集 农产品 价格 数据 和 价格 变化 的 主要 因素 起 到 重要 作 / 


7 


网 


田 ， 提 
了 准确 预测 农产品 价格 涨 
幅 ， 孟 繁 疆 P9 等 人 构建 农产品 价格 主题 搜索 引擎 ， 该 系统 在 


Jo 


为 助 于 整个 人 类 健康 , 互联 网 技术 在 医疗 领域 逐渐 扩展 ， 


尹 曼 3 通过 分 析 医 疗 器 械 产 品 特点 以 及 从 业 人 员 和 消费 
员 不 同 的 需求 构建 了 面向 医疗 器 械 垂 直 搜索 引擎 ;， 周 米 雪 


人 
4 


ke 


从 主题 相似 度 、PageRank 算法 两 方面 作出 改进 构建 医学 垂 


搜索 引擎 ， 经 测试 该 搜索 引擎 查 ; 
通过 对 互联 网 中 存在 的 中 医药 信息 分 析 设 计 中 医药 领域 主 
怜 虫 ， 
言 息 ， 给 人 们 提供 可 靠 、 精 准 的 医疗 健康 信息 服务 。 
刘 灿 等 人 B0 采 用 主题 朴 虫 技术 设计 面向 个 性 化 推荐 
教育 新 闻 扑 取 ， 为 人 们 能 够 准确 及 时 获取 教育 类 新 闻 ; 
RG 等 人 提出 基于 谷歌 的 全 栈 技术 MEAN 开发 了 一 种 高 效 
定向 扑 虫 (Mongo DB + Express + Angular JS + Node.js) 堆 


tt 


率 明显 升 高 ， 李 学 博 69 
题 


该 系统 以 最 便捷 、 快 速 的 方式 从 互联 网 中 获取 中 医药 


的 


Hu 


的 
栈 


和 一 个 快速 灵活 的 Javascript 文档 对 象 模型 模块 ， 称 为 Cheer 


IO， 在 实际 项 目 中 该 系统 提供 了 大 量 


效 数据 ， 李 翔 宇 3 


设计 开发 了 生物 安全 领域 的 主题 怜 虫 ， 旨 在 从 万 维 网 海量 信 


息 中 对 该 领域 信息 知识 的 精准 获取 。 关 卫 国 B41 采用 主题 仆 
技术 采集 有 关 食 品 接触 材料 安全 信息 ， 这 对 食品 接触 材料 
全 领域 网 络 与 情 具 有 重要 意义 。 


7 “主题 怜 虫 的 发 展 趋势 


目前 为 止 ， 研 究 人 员 在 主题 网 络 朴 虫 上 作出 大 量 研究 
但 针对 主题 仆 虫 性 能 方面 还 有 很 大 的 研究 空间 ， 分 为 一 下 
点 ; 


人 


a) 网 络 疏 虫 都 是 固定 的 搜索 策略 , 面 对 互 联网 中 不 同 
站 之 间 网 页 组 织 形式 的 不 同 ， 固 定 的 搜索 模式 无 法 高 效 地 
取 ， 如 何 通过 集成 肘 取 规则 的 方法 来 提高 主题 朴 虫 性 能 有 
研究 。 
b) 宽泛 的 主题 利用 网 页 内 容 和 链接 上 下 文 构建 主题 
虫 可 以 有 效 地 计算 出 主题 相关 度 ， 但 针对 较 旨 


化 的 主题 存在 


中 
下 


安 


» 


LL 


网 
抓 


待 


代 


信息 时 查 准 率 、 查 群 率 都 会 降低 ， 从 语义 角度 改进 对 主题 特 


征 词 的 选取 成 为 未 来 主题 假 虫 技术 的 研究 热点 


tH 一 套 反扑 虫 


c) 出 于 对 网 站 信息 的 保护 , 设计 网 站 时 会 


策略 来 阻止 仆 忠 抓 取 数据 。 针 对 反扑 虫 策略 ， 研 究 人 员 引 入 
分 布 式 网 络 稚 虫 等 高 级 朴 虫 来 获取 海量 信息 ， 但 越 高 级 的 疏 
虫 相应 的 开发 成 本 高 ， 能 否 设计 出 低 成 本 的 高 级 仆 虫 有 待 


究 。 
d) 网 络 与 情 监控 系统 中 对 菜 热点 话题 信息 采集 , 传统 方 
法 无 法 准确 对 主题 进行 准确 描述 ， 若 利用 热点 话题 具有 的 最 


显著 特点 :时间 性 ， 明 确 该 话题 产生 时 间 、 发 展 时 间 、 消 逝 


本 


时 间 等 。 比 如 在 食品 安全 主题 的 突 发 话题 检测 技术 研究 ， 对 
食品 安全 话题 进行 实时 跟踪 ， 增 加 话题 时 间 变 化 度 概 念 。 
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